چگونه تقارن می تواند به کمک یادگیری ماشین بیاید
چگونه تقارن می تواند به کمک یادگیری ماشین بیاید -محققان MIT نشان می دهند که استفاده از تقارن در مجموعه داده ها می تواند میزان داده های مورد نیاز برای آموزش شبکه های عصبی را کاهش دهد.
بهروز طهماسبی – دانشجوی دکترای MIT در گروه مهندسی برق و علوم کامپیوتر (EECS) و وابسته به آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) – در اواخر سال 2021 در حال گذراندن یک دوره ریاضیات در معادلات دیفرانسیل بود که بارقهای از الهام بود. رخ داد.
در آن کلاس، او برای اولین بار در مورد قانون ویل که 110 سال قبل توسط ریاضیدان آلمانی هرمان ویل فرموله شده بود، آشنا شد.
طهماسبی متوجه شد که ممکن است با مشکل علوم کامپیوتری که در آن زمان با آن دست و پنجه نرم می کرد، ارتباط داشته باشد، حتی اگر این ارتباط – در ظاهر – در بهترین حالت نازک به نظر می رسید.
او میگوید قانون ویل فرمولی را ارائه میکند که پیچیدگی اطلاعات طیفی یا دادههای موجود در فرکانسهای اساسی یک سر درام یا سیم گیتار را اندازهگیری میکند.
طهماسبی در همان زمان به اندازهگیری پیچیدگی دادههای ورودی به یک شبکه عصبی فکر میکرد و به این فکر میکرد که آیا میتوان این پیچیدگی را با در نظر گرفتن برخی از تقارنهای ذاتی مجموعه داده کاهش داد.
چنین کاهشی به نوبه خود میتواند فرآیندهای یادگیری ماشین را تسهیل کند – و همچنین سرعت بخشد.
قانون ویل که حدود یک قرن قبل از رونق یادگیری ماشین تصور شد، به طور سنتی در موقعیتهای فیزیکی بسیار متفاوت اعمال میشد – مانند موقعیتهای مربوط به ارتعاشات یک رشته یا طیف تشعشعات الکترومغناطیسی (جسم سیاه) که توسط یک جسم گرم شده منتشر میشود.
با این وجود، طهماسبی معتقد بود که نسخه سفارشیشده آن قانون ممکن است به مشکل یادگیری ماشینی که او دنبال میکرد کمک کند. و اگر این رویکرد به نتیجه برسد، بازده قابل توجهی خواهد بود.
او با مشاور خود، استفانی جگلکا – دانشیار در EECS و وابسته به CSAIL و موسسه MIT برای دادهها، سیستمها و جامعه – صحبت کرد که معتقد بود این ایده قطعا ارزش بررسی دارد.
همانطور که طهماسبی دید، قانون ویل باید با سنجش پیچیدگی داده ها سر و کار داشته باشد و این پروژه نیز همینطور. اما قانون ویل، در شکل اصلی خود، چیزی در مورد تقارن نگفته است.
او و جگلکا اکنون در اصلاح قانون ویل موفق شده اند تا بتوان تقارن را در ارزیابی پیچیدگی یک مجموعه داده لحاظ کرد.
طهماسبی میگوید: «تا جایی که من میدانم، این اولین باری است که قانون ویل برای تعیین اینکه چگونه یادگیری ماشین را میتوان با تقارن تقویت کرد، استفاده میشود.»
مقاله ای که او و جگلکا نوشتند، هنگامی که در کنفرانس دسامبر 2023 در مورد سیستم های پردازش اطلاعات عصبی ارائه شد – که به طور گسترده به عنوان برترین کنفرانس جهان در زمینه یادگیری ماشینی شناخته می شود، عنوان “Spotlight” را به خود اختصاص داد.
Soledad Villar، ریاضیدان کاربردی در دانشگاه جانز هاپکینز، اظهار داشت: این کار نشان میدهد که مدلهایی که تقارنهای مسئله را برآورده میکنند، نه تنها درست هستند، بلکه میتوانند با استفاده از مقدار کمی از نکات آموزشی، پیشبینیهایی با خطاهای کوچکتر ایجاد کنند.
چگونه تقارن می تواند به کمک یادگیری ماشین بیاید
[این] به ویژه در حوزه های علمی، مانند شیمی محاسباتی، که در آن داده های آموزشی ممکن است کمیاب باشد، مهم است.
طهماسبی و جگلکا در مقاله خود راههایی را بررسی کردند که در آن تقارنها، یا به اصطلاح «بیتغییرها» میتوانند برای یادگیری ماشین مفید باشند.
برای مثال، فرض کنید هدف یک کامپیوتر خاص، انتخاب هر تصویری است که شامل عدد 3 است. اگر الگوریتم بتواند 3 را بدون توجه به جایی که در آن قرار دارد، شناسایی کند، این کار میتواند بسیار سادهتر و سریعتر انجام شود.
در جعبه قرار می گیرد – خواه دقیقاً در مرکز باشد یا در کنار – و خواه به سمت راست به سمت بالا، وارونه یا با زاویه تصادفی جهت گیری شده باشد.
یک الگوریتم مجهز به قابلیت دوم میتواند از تقارنهای ترجمه و چرخش استفاده کند، به این معنی که یک 3 یا هر جسم دیگری با تغییر موقعیت خود یا چرخش آن حول یک محور دلخواه به خودی خود تغییر نمیکند.
گفته می شود که نسبت به آن تغییرات ثابت است. همین منطق را میتوان برای الگوریتمهایی که با شناسایی سگها یا گربهها کار میکنند، اعمال کرد.
شاید بتوان گفت سگ سگ است، صرف نظر از اینکه چگونه در یک تصویر جاسازی شده است.
نویسندگان توضیح میدهند که هدف کل تمرین، بهرهبرداری از تقارنهای ذاتی مجموعه داده به منظور کاهش پیچیدگی وظایف یادگیری ماشین است.
این به نوبه خود می تواند منجر به کاهش مقدار داده های مورد نیاز برای یادگیری شود.
به طور مشخص، کار جدید به این سوال پاسخ میدهد: اگر دادهها دارای تقارن باشند، چند داده کمتر برای آموزش یک مدل یادگیری ماشین لازم است؟
دو راه برای دستیابی به سود یا منفعت با سرمایه گذاری بر تقارن های موجود وجود دارد. اولی مربوط به اندازه نمونه ای است که باید به آن نگاه کرد.
بیایید تصور کنیم که برای مثال، شما با تجزیه و تحلیل تصویری که دارای تقارن آینهای است، متهم شدهاید – سمت راست یک کپی دقیق یا تصویر آینهای از سمت چپ است.
در این صورت، لازم نیست به هر پیکسل نگاه کنید. شما می توانید تمام اطلاعات مورد نیاز خود را از نیمی از تصویر به دست آورید – دو ضریب بهبود. از طرف دیگر، اگر بتوان تصویر را به 10 قسمت یکسان تقسیم کرد، می توانید ضریب 10 بهبود را دریافت کنید. این نوع اثر تقویتی خطی است.
برای مثال دیگر، تصور کنید که یک مجموعه داده را غربال میکنید و سعی میکنید دنبالههایی از بلوکها را بیابید که هفت رنگ مختلف دارند – سیاه، آبی، سبز، بنفش، قرمز، سفید و زرد.
اگر به ترتیب چیدمان بلوک ها اهمیتی ندهید، کار شما بسیار آسان تر می شود. اگر سفارش مهم بود، 5040 ترکیب مختلف برای جستجو وجود داشت.
اما اگر تنها چیزی که به آن اهمیت میدهید توالیهایی از بلوکها است که هر هفت رنگ در آن ظاهر میشوند، پس تعداد چیزها – یا دنبالههایی – را که جستجو میکنید از 5040 به تنها یک کاهش دادهاید.
طهماسبی و جگلکا کشف کردند که می توان به نوع دیگری از سود دست یافت – سودی که نمایی است – که می تواند برای تقارن هایی که در ابعاد مختلف عمل می کنند به دست آورد.
این مزیت به این مفهوم مربوط می شود که پیچیدگی یک کار یادگیری به طور تصاعدی با ابعاد فضای داده افزایش می یابد.
بنابراین استفاده از یک تقارن چند بعدی می تواند بازدهی نامتناسب زیادی را به همراه داشته باشد.
طهماسبی میگوید: «این یک مشارکت جدید است که اساساً به ما میگوید که تقارنهای بعد بالاتر مهمتر هستند، زیرا میتوانند به ما سودی تصاعدی بدهند.»
مقاله NeurIPS 2023 که او با جگلکا نوشت شامل دو قضیه است که به صورت ریاضی ثابت شده اند.
طهماسبی میگوید: «قضیه اول نشان میدهد که بهبود پیچیدگی نمونه با الگوریتم کلی که ارائه میکنیم قابل دستیابی است.
او اضافه کرد که قضیه دوم تکمیل کننده قضیه اول است، “نشان می دهد که این بهترین سود ممکن است که می توانید بدست آورید. هیچ چیز دیگری قابل دستیابی نیست.»
او و جگلکا فرمولی ارائه کرده اند که سودی را که می توان از یک تقارن خاص در یک کاربرد معین به دست آورد، پیش بینی می کند.
طهماسبی خاطرنشان می کند که یک حسن این فرمول عمومیت آن است. “این برای هر تقارن و هر فضای ورودی کار می کند.”
این نه تنها برای تقارن هایی که امروزه شناخته شده اند کار می کند، بلکه می تواند در آینده برای تقارن هایی که هنوز کشف نشده اند نیز به کار رود.
با توجه به اینکه جستوجوی تقارنهای جدید مدتهاست که یک محور اصلی در فیزیک بوده است، دورنمای دوم چندان دور از ذهن نیست.
این نشان میدهد که با یافتن تقارنهای بیشتر، روششناسی معرفیشده توسط طهماسبی و جگلکا باید با گذشت زمان بهتر شود.
«به طور قابل توجهی با کارهای قبلی مرتبط متفاوت است، با اتخاذ دیدگاه هندسی و استفاده از ابزارهای متفاوت. هندسه.
این مشارکت نظری به زیرشاخه نوظهور «یادگیری عمیق هندسی» که کاربردهایی در یادگیری نمودار، داده های سه بعدی و موارد دیگر دارد، پشتیبانی ریاضی می دهد.
این مقاله به ایجاد یک مبنای نظری برای هدایت پیشرفتهای بیشتر در این حوزه تحقیقاتی که به سرعت در حال گسترش است، کمک میکند.